决策树
策略:分而治之
自叶至根的递归过程
在每个中间节点寻找一个划分属性
还需要多少信息才能分开?
越接近0越纯净
越大越需要信息来分开
ID3划分标准:信息增益
用属性a对样本集及逆行划分所获得的信息增益
限制一次不要生出太多树枝
抽两个,不一样的概率
研究表明:划分选择的各种准则虽然对决策树的尺寸有较大影响,但是对泛化性能的影响很有限,而剪枝方法和程度对决策树泛化性能的影响更为显著!
现实应用中,经常会遇到属性值缺失的现象,如果仅仅使用无缺失的样例值,就会损失掉那些有缺失值的数据里面蕴含的信息,造成对数据的极大浪费
要使用带缺失值的样例,需要解决如下问题
样本赋权,权重划分,同时进入
本质上是把样本进入各个分支的后验概率作为缺失值样本应该进入那个分支的先验概率。